這波大語言模型的突破,帶來了很多新的應用的可能性,但許多的應用情境,可能出於隱私的需求,或是安全性的考慮,需要離線使用大模型。當然在資金充裕的情形下,直接拿訓練大模型的硬體來作為執行推論的區域網路伺服器,也是一種選擇,但這麼做的建置和維運成本都相當高。
基於這個「痛點」,目前多了很多新的選擇:例如新版的 Mac mini 就成為很多中小型實驗室建置大模型叢集的熱門選擇。而 AMD 新上市的 Strix Halo,也有很多廠商準備了 128GB 統合記憶體的產品要來攻略這個市場。
這兩天的 GTC 大會上,Jenson Huang 公佈了一項「人人都應該要有一台」的新產品,DGX Spark。個人覺得這完全就是衝著 Mac mini cluster 來的,一樣採用 ARM-based 處理器,更大的 128GB的統合記憶體,連定價區間都接近,但是由於是本家產品,直接支援 CUDA,所以大模型運作起來的效率就遠遠不是同一個等級。當然,由於硬體架構不同,在訓練模型的效率上沒辦法跟 H100/B100 系列相比,但作為微調(fine-tune)的工具還是游刃有餘,而其它廠牌產品受限於 CUDA 的支援,都只能做「推論」(就是執行人家訓練好的模型),要訓練或微調模型卻是沒辦法的。
所以,等上市就來買一台試試看囉。